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摘 要 在 心理 学 可 重复 危机 的 背景 之 下 ， 报 告 效应 量 及 其 置信 区 间 正 逐渐 成 为 主流 心理 
学 界 所 要 求 的 新 标准 ,但 是 研究 者 可 能 对 效应 量 的 置信 区 间 缺 乏 足 够 的 理解 。 为 增强 研究 者 
对 效应 量 置信 区 间 的 理解 及 应 用 ， 本 文 介绍 了 心理 学 研究 中 最 常用 的 效应 量 指标 一 
Cohen’s d 与 人 P 一 的 置信 区 间 的 基本 原理 ， 即 ， 在 备 择 假设 (Hi) 为 真 时 ， 需 要 通过 迭代 
估计 的 方式 来 估计 相应 非 中 心 分 布 的 非 中 心 分 布 参数 , 从 而 构建 Cohen'sd 与 们 的 置信 区 间 。 
其 中 Cohen's d 对 应 的 是 非 中 心 1 分 布 而 全 对 应 的 则 是 非 中 心 分 布 。 使 用 现 有 的 计算 机 
程序 ， 能 够 对 Cohen sd 与 由 的 置信 区 间 进 行 计算 ， 例 如 R 与 JASP， 本 文 对 此 进行 了 分 别 
展示 。 报 告 效应 量 置 信 区 间 不 仅 有 助 于 研究 者 更 好 地 进行 统计 推断 , 也 有 利于 整个 科学 界 知 
识 的 积累 ， 因 此 本 文 介绍 的 方法 对 研究 者 具有 十 分 重要 的 意义 。 
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1 引言 

统计 推断 是 研究 者 根据 数据 进行 逻辑 推导 从 而 验证 研究 假设 的 必要 手段 ,虚无 假设 显著 
性 检验 (null hypothesis significance test, NHST) 是 心理 学 研究 中 最 为 常用 的 统计 推断 手段 
(Cumming et al., 2007)。 但 该 方法 以 p 值 是 否 小 于 0.05 作为 决定 统计 显著 性 的 指标 ， 间 接 导 
臻 了 心理 学 研究 的 假 阳 性 过 高 ; H p 值 受 抽样 样本 的 影响 较 大 , 不 适合 作为 重复 研究 或 跨 实 
验 研究 比较 的 统计 指标 ( 胡 传 鹏 , 王 非 , 过 继 成 思 ， 宋 梦 迪 ， 隋 洁 ， 彭 凯 平 ,2016)。 近 年 来 ， 随 
着 对 心理 学 研究 可 重复 性 的 广泛 关注 ,NHST 的 局 限 性 再 次 引起 众多 学 者 的 重视 (Kline, 2004; 
Wagenmakers, Wetzels, Borsboom, & van der Maas, 2011)。 为 了 弥补 NHST 的 不 足 ， 新 的 统计 
方法 开始 逐渐 被 引入 心理 学 研究 ， 例 如 基于 估计 的 统计 (estimates-based statistics)(Cumming, 
2012, 2014)、 贝 叶 斯 因子 ( 胡 传 月 ， 孔 祥 祯 , Wagenmakers, Ly, XWF, 2018; Wagenmakers et 
al., 2018)、 似 然 性 方法 (Etz, 2018)。 其 中 ， 基 于 估计 的 统计 方法 由 于 易于 理解 ， 且 能 够 弥补 
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NHST 的 不 足 ， 被 国内 外 研究 者 推荐 。 该 方法 所 强调 的 效应 量 (effect size) 及 其 置信 区 间 
(confidence intervals, CIs) 正 逐渐 成 为 国际 、 国 内 重要 心理 学 期 刊 论 文中 必须 报告 的 统计 指标 


(APA Publications Communications Board Working Group on Journal Article Reporting Standards， 


2008; Appelbaum, Cooper, Kline, Mayo-Wilson, Nezu, & Rao, 2018; Cumming, 2014). 


尽管 如 此 ， 相 比 “ 统 治 ” 了 心理 学 数 十 年 的 NHST， 效 应 量 及 其 置信 区 间 在 心理 学 研究 中 


的 使 用 仍 十 分 有 限 ， 极 少 研究 报告 效应 量 的 置信 区 间 (Fritz, Morris, & Richler, 2012). 


国内 研 


究 者 虽 对 效应 量 的 概念 进行 过 不 少 的 介绍 ( 胡 竹 靖 , 2010; BYE, RPS, MLA, 2011; 郑 


RA ER, RH, 2011)， 但 却 很 少 提 及 效应 量 的 置信 区 间 。 


值得 注意 的 是 ， 心 理学 专业 研究 人 员 、 学 生 对 置信 区 闻 仍 有 一 定 误解 ( 胡 传 鹏 等 
Hoekstra, Morey, Rouder, & Wagenmakers, 2014)。 例 如 ， 胡 传 月 等 人 (2016) 针 对 国内 研究 者 


, 2016; 


对 CI 的 理解 情况 进行 了 调查 。 在 该 调查 中 ， 呈 现 一 个 假想 的 研究 ， 其 效应 的 95% 置 信 区 间 


为 [0.1, 0.4]， 受 访 者 需要 判断 是 否 能 够 根据 这 个 置信 区 间 推 岂 出 如 下 6 个 陈述 


述 : A， 真 实 的 


均值 大 于 0 的 可 能 性 至 少 是 95%; B， 真 实 的 均值 等 于 0 的 可 能 性 小 于 5%; C， 真 实 的 均值 
等 于 0 的 “ 零 假 设 ” 很 可 能 是 不 正确 的 ， D， 真 实 的 均值 有 95% 的 可 能 性 在 0.1 和 0.4 之 间 ; 
E, RITA 95% 的 信心 认为 真实 的 均值 在 0.1 和 0.4 之 间 ; FE， 如 果 我 们 重复 该 实验 ， 则 95% 
的 时 候 ， 真 实 的 均值 会 在 0.1 和 0.4 之 间 。 上 述 6 个 陈述 均 属 于 对 置信 区 间 的 误解 (Hoekstra 
etal., 2014), 但 是 大 部 分 受 访 者 或 多 或 少将 其 判断 为 正确 解读 。( 见 图 1, 数据 来 自 Lyu, Peng, 


& Hu, 2018). 实际 上 , 置信 区 间 的 正确 解读 应 该 是 ， 如 果 不 断 量 


E 复 该 实验 并 计算 置信 区 间 ， 


在 所 有 计算 出 来 的 置信 区 间 中 , 约 有 95% 的 置信 区 间 包 含 真实 的 均值 。 因 此 这 旦 


有 的 [0.1, 0.4] 


是 理论 上 众多 置信 区 间 中 的 一 个 ， 其 是 否 包 括 真 值 是 未 知 的 (Cumming, 2014)。 
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图 1 国内 心理 学 


学 生 及 研究 者 在 6 个 关于 CI 陈述 上 的 错误 率 


为 加 深 研究 者 对 效应 量 及 
其 置信 区 间 ， 本 文 首先 介绍 


置信 区 间 的 理解 , 同时 便于 研究 者 准确 计算 和 报告 效应 量 及 
效应 量 的 置信 区 间 及 其 优势 ， 然 后 以 两 种 常用 的 效应 量 (Cohen's 


chinaXiv:201904.00078v2 


d X Eta squared, 


现 。 但 值得 注意 的 是 ， 本 文 提 及 的 效应 量 并 不 仅 
据 Cumming (2014) 的 定义 , 效应 量 指 的 是 研究 者 感 兴趣 的 任何 效应 的 量 , 效应 量 既 可 以 是 


n Awl, 介绍 其 置信 区 间 的 原理 及 如 何在 开源 软件 (如 R 和 JASP) 中 实 
RF Cohen's d 等 标准 化 的 效应 量 指标 。 根 


标准 化 的 ， 也 可 以 是 未 标准 化 的 、 带 有 原始 单位 的 。 另 外 ， 并 非 标准 化 的 效应 量 就 一 定 优 于 


未 标准 化 的 效应 量 ， 


研究 者 应 根据 实际 情况 ， 


标准 化 的 效应 量 是 更 具 解 释 力 的 。 


2 报告 效应 量 及 其 置信 区 间 的 优势 
与 NHST 中 的 p 值 相 比 ， 报 告 效应 量 及 其 置信 区 间 为 结果 提供 了 更 详细 、 更 多 元 的 信 
息 。 上 其 体 而 言 ， 报 告 效 应 量 及 其 置信 区 间 有 如 下 优势 。 


第 一 ， 能够 比较 不 同 
信 区 间 分 别 如 图 2 所 示 。 


选择 能 够 合理 反映 数据 信息 的 效应 量 ， 有 时 未 


1 
实验 2 


图 2 三 组 数据 的 效应 量 及 其 置信 区 间 
实验 之 间 的 误差 大 小 。 


假如 研究 者 进行 了 三 个 实验 ， 其 效应 量 及 置 
如 果 根 据 传 统 的 NHST 方法 ， 研 究 者 能 够 得 出 的 结论 为 : 在 实验 1 


和 实验 3 中 ，p < 0.05， 即 两 组 均值 均 与 0 有 显著 差异 ;而 实验 2 的 p 值 大 于 0.05， 即 其 均 
值 与 0 没有 显著 差异 。 在 这 种 情况 下 ， 研 究 者 根据 实验 1 和 实验 3 得 出 的 结论 几乎 是 相同 
的 ,至 于 两 组 均值 的 差异 到 底 有 多 大 ? 数据 的 抽样 误差 如 何 ? 三 组 数据 哪 一 组 能 为 假设 提供 
最 可 靠 的 证 据 ? p 值 无 法 给 出 答案 。 

在 传统 的 报告 规范 中 ,研究 者 通常 利用 未 经 标准 化 的 点 估计 指标 例如: 均值 ) 及 标准 


误 来 弥补 上 述 不 足 , 同样 的 报告 


效应 量 ( 此 处 为 均值 差 ) 及 其 置信 区 间 也 能 够 达到 相同 目的 。 


根据 图 2 可 知 ， 实 验 1 与 实验 3 8 


BUN, KIE 3 则 效应 


验 1 和 实验 3 的 结论 


量 较 大 ， 变 异 也 较 大 。 由 


于 对 效应 量 


就 会 有 所 区 别 。 


虽然 均 显 著 ， 但 是 相对 而 言 ， 实 验 1 的 效应 量 较 小 、 变 异 也 


量 及 其 置信 区 间 的 分 析 ， 研 究 者 对 实 


第 二 , 效应 量 及 其 置信 区 间 能 帮助 研究 者 得 出 正确 的 结论 。 在 仅 参 考 效应 量 及 置信 区 间 
的 情况 下 ， 大 部 分 研究 者 能 够 在 比较 不 同 研究 的 结果 时 得 出 符合 逻辑 的 结论 ; (LE NHST 
和 效应 量 时 ， 能 够 得 出 正确 的 结论 的 人 数 减 少 (Coulson, Healey Fidler, & Cumming, 2010; Lyu 
et al., 2018)。 相 比 NHST 的 三 分 思想 ， 报 告 效 应 量 及 其 置信 区 间 将 研究 者 引 向 一 种 “估计 ”、 
“定量 ”的 取向 (Cumming & Fidler, 2009)。 在 这 种 思维 取向 下 ， 研 究 者 也 更 倾向 于 提出 量化 的 
问题 。 仍 以 图 2 为 例 ， 实 验 2 的 结果 虽然 不 显著 , 但 是 从 效应 量 及 其 置信 区 间 上 来 看 ， 该 实 
验 的 趋势 与 实验 1 和 实验 3 是 相同 的 。 这 也 使 得 研究 者 对 研究 产生 进一步 深化 的 思考 。 例 
如 ， 是 否 是 实验 2 中 数据 的 “噪音 ”过 大 导致 了 不 显著 的 结果 ? 

第 三 ， 可 以 展现 关于 研究 的 更 丰富 的 信息 。 在 图 2 中 ,实验 1 的 效应 量 其 实 很 小 ， 换 言 
之 实验 1 中 的 两 组 实际 差异 可 能 不 大 。 但 是 也 许 由 于 实验 抽样 误差 小 、 样 本 量 较 大 ， 实 验 1 
的 置信 区 间 很 罕 , 研究 者 可 以 在 很 高 的 置信 水 平 上 得 到 差异 显著 的 结论 。 这 就 是 统计 显著 性 
与 实际 显著 性 不 相称 的 实例 。 与 之 相反 ， 对 于 实验 2， 虽 然 其 置信 区 间 包 含 0， 但 其 效应 量 
的 点 估计 值 却 是 最 高 的 ， 由 此 可 见 在 实验 2 数据 的 “噪音 ”过 大 ， 导 致 了 其 数据 变异 过 大 、 
置信 区 间 过 宽 。 实 验 3 的 结果 则 较为 理想 ， 其 效应 量 及 其 置信 区 间 都 在 较为 合理 的 水 平 。 

最 后 ， 由 于 效应 量具 有 非 样 本 依赖 性 ( 户 谢 峰 等 ,2011), 相 比 依赖 样本 的 p (HL, 它 更 适用 
于 跨 实验 的 综合 分 析 及 元 分 析 研 究 中 。 从 频率 主义 统计 的 角度 来 讲 , 任何 一 个 单独 的 研究 可 
以 看 作 是 进行 一 次 独立 的 抽样 并 对 总 体 的 参数 进行 一 次 估计 , 因此 单个 的 研究 很 可 能 是 片面 
的 , 但 通过 多 个 研究 的 数据 积累 , 研究 者 可 以 进行 通过 元 分 析 (meta-analysis) 对 总 体 进 行 更 加 
精确 地 估计 。 元 分 析 不 仅 能 扩大 样本 量 ， 提 高 统计 检验 力 ， 还 可 以 缩小 置信 区 间 的 范围 , 使 
得 对 总 体 效 应 量 的 估计 更 加 精确 (Cumming, 2012)。 相 比 p 值 ， 效 应 量 及 其 置信 区 间 的 研究 
更 便于 进行 元 分 析 统 计 ， 且 定量 报告 效应 量 及 其 置信 区 间 的 过 程 本 身 也 蕴含 了 元 分 析 思 想 。 

正 是 由 于 效应 量 与 置信 区 间 的 优势 ， 其 得 到 了 研究 者 的 广泛 推荐 。 在 美国 心理 学 会 

(American Psychological Association, APA) 出 版 手册 (第 六 版 ) 中 ,推荐 了 报告 效应 量 及 其 
置信 区 间 。 而 在 2018 年 《美国 心理 学 家 》(American Psychologist) 所 介绍 的 期 刊 报 告 标准 
中 ， 也 推荐 报告 效应 量 及 其 置信 区 间 (Appelbaum et al., 2018). 

总 之 ,在 当前 的 研究 中 ， 虽 然 报告 效应 量 及 其 置信 区 间 得 到 了 广泛 的 支持 ， 但 是 效应 量 
的 置信 区 间 却 应 用 较 少 (Fritz et al., 2012)。 一 个 主要 的 原因 可 能 在 于 研究 者 都 对 效应 量 的 置 
信 区 间 知 之 不 多 ， 而 且 缺 乏 相 应 的 工具 进行 实现 《〈 例 如 心理 学 常用 的 统计 软件 SPSS 并 没有 
常用 效应 量 指标 的 置信 区 间 输 出 )。 为 了 解决 这 个 问题 ， 接 下 来 ， 本 文 将 以 Cohen’s d 和 Eta 
squared (n?) 为 例 ， 介 绍 其 置信 区 间 的 原理 与 计算 公式 ， 并 展示 如 何 使 用 开源 的 软件 来 实现 
置信 区 间 的 计算 。 


3 标准 化 的 差异 量 (Cohen’s d) 

Cohen 最 早 对 d 的 定义 是 以 总 体 的 标准 差 为 标准 化 单位 , 然而 在 实际 研究 中 总 体 的 标准 
差 常 常 是 未 知 的 , 因此 更 常见 的 做 法 是 使 用 样本 的 标准 差 作 为 标准 化 单位 〈 后 文 以 样本 标准 
Ze s 为 单位 进行 描述 )。Cohen's d 的 原理 即 为 样本 的 均值 和 虚无 假设 CA) 的 均值 差异 除 以 
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标准 差 的 比值 : 


Cohen's d= -D (3.1) 


RF, s 表示 样本 的 标准 差 ，h 表 示 我 们 希望 用 来 测量 d 的 参考 值 。Cohen’s d 就 可 以 简单 理 


解 为 样本 均值 X 与 参考 值 之 间 相 差 几 个 标准 差 s。 不过, 对 比 不 同 的 研究 目的 , 关于 Cohen’s 


d 的 计算 公式 有 多 种 形式 ， 具 体 可 以 参考 Cumming (2014), Hedges (1981) 和 Lakens (2013). 
3.1 Cohen’s d 置信 区 间 的 原理 

要 理解 Cohen’s d 的 置信 区 间 ， 首 先 需 要 理解 1 值 在 虚无 假设 (null hypothesis, Ho) 为 
真 〈 即 没有 效应 ) 和 备 择 假 设 (alternative hypothesis, H) 为 真 这 两 种 情况 下 的 分 布 。 假 设 从 


一 个 正 态 分 布 CN( 届 8)) 中 随机 抽取 无 数 个 样本 量 为 N 的 样本 。 对 于 其 中 的 一 个 样本 ,其 均 
数 为 M， 标 准 差 为 s。 如 果 想 检验 这 个 样本 是 否 属 于 标准 正 态 分 布 的 总 体 ， 在 NHST 的 框架 


下 ， 我 们 可 以 基于 虚无 假设 Ho: k= ko 进行 单 样本 1 检验 ， 可 以 通过 如 下 公式 计算 1 值 : 


_ M-ko 
=F (3.2) 


在 虚无 假设 为 真 的 情况 下 , 假如 我 们 无 数 次 进行 抽取 样本 量 为 N 的 样本 并 进行 上 检验 , 那么 
这 些 1 值 会 形成 一 个 自由 度 df = (N 一 1) 的 1 分 布 。 在 这 种 情况 下 , t 分 布 是 以 0 为 中 心 ， 


边 对 称 的 分 布 。 此 时 , 我 们 也 可 以 将 1 检验 的 统计 量 看 作 是 M 与 I 之 间 以 s/VN (标准 误 ) 为 
单位 的 距离 。 对 于 每 一 个 样本 ， 我 们 都 可 以 使 用 1 分 布 表 计 算 p 值 ， 并 进行 假设 检验 。 


(ASE, WEEZE (Hy) RIA, WARRE (HD MIA, Bly = py (uy + po) 在 


这 种 情况 下 ， 我 们 实际 上 是 从 均值 为 41 的 总 体 中 进行 抽样 ， 那 么 无 数 次 抽取 样本 量 为 N 的 


样本 而 计算 出 来 的 均值 M 就 会 更 加 接近 ji 而 非 Ko。 如 果 仍 用 上 面 的 公式 进行 1 检验 ， 那 么 


无 数 次 计算 到 的 1 值 不 再 是 以 0 为 中 心 两 侧 对 称 的 上 分 布 ， 而 是 中 心 不 在 零 点 的 偏 态 的 非 
中 心 ! 分 布 。 对 于 这 样 一 个 非 中 心 上 分 布 ， 其 参数 除了 自由 度 Cap) 外 ， 还 包括 一 个 非 中 心 


参数 人 GEX: delta), A 可 以 看 作 是 是 几 和 已 之 间 以 标准 误 为 单位 的 距离 。 在 其 他 条 件 相 


同 的 情况 下 ，A 值 越 大 ， 说 明 这 个 非 中 心 t 分 布 的 中 心 越 偏离 0( 如 图 3 所 示 ， 其 中 非 中 心 
参数 ncp 表示 R 软件 中 A 的 取 值 )。 
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ncp 


ncp=0 ncp=3 ncp=6 


Rt BS At SE 
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0.1 


0 


4 -2 0 2 4 6 8 10 


图 3 不 同 的 非 中 心 参数 A(ncp) 对 应 的 非 中 心 分 布 t 
将 公式 (3.1) 和 公式 (3.2) 结 合 ， 可 以 得 出 


Cohen's d= / VN (3.3) 


公式 (3.1) 说 明 d 表示 M 与 h 之 间 以 s( 即 标准 差 ) 为 单位 的 距离 ， 公 式 (3.2) 说 明 t 表示 


M 与 之 间 以 s/VN( 即 标准 误 ) 为 单位 的 距离 。 公 式 (3.3) 则 表明 ，Cohen's d 与 1 值 有 一 一 对 


应 关系 。 因 此 ，Cohen's 4 的 抽样 分 布 也 是 非 中心 1 分 布 ， 在 计算 Cohen’s d 的 置信 区 间 时 需 
要 用 到 非 中 心 1 分 布 。 

由 于 t 值 在 备 择 假 设 H) 为 真 时 为 非 中 心 1 分 布 ， 这 种 情况 下 4d 也 是 一 个 非 中 心 上 分 
布 。 也 就 是 说 4 的 置信 区 间 是 一 个 非 对 称 的 区 间 ， 上 下 限 到 中 心 的 距离 不 一 致 ， 所 以 我 们 需 
HAR Citerative approximations) 的 方法 来 构建 d 的 置信 区 间 。 我 们 可 以 结合 下 图 来 
详细 说 明 。 


-2 -1 0 1 2 3 4 
d 


4 总 体 效应 量 d 的 可 能 值 分 布 ( 引 自 Cumming (2012), 第 11 $) 
假如 有 一 个 总 体 效应 为 Cohen's d= 1.21， 需 要 构建 其 95% 的 置信 区 间 (如 图 4 所 示 )。 


也 就 是 说 ， 如 果 无 数 次 构建 这 样 的 区 间 , AVA 95% 的 区 间 包 含 1.21。 那 么 ， 以 区 间 的 下 限 dL 
为 中 心 时 , d 的 抽样 分 布 拒绝 di 而 选择 真 值 的 概率 为 2.5%《〈 深 灰色 部 分 ) 同时 ， 对 于 以 置 


信 区 间 上 限 du 为 中 心 时 ，4 的 抽样 分 布 拒绝 du 而 选择 真 值 的 概率 同样 为 2.5% 浅 灰色 区 


域 )。 这 就 意味 着 , 区 间 的 上 限 和 下 限 为 中 心 的 分 布 包 含 真 值 的 可 能 性 之 和 正好 为 5%; 而 将 
区 间 下 限 或 者 上 限 向 中 心 移动 时 , 包含 真 值 的 可 能 性 变 大 。 同 理 ,， 如果 需要 估计 99% 和 置信 区 
间 的 范围 相 比 于 95% 的 置信 区 间 ， 区 间 的 上 限 和 下 限 会 更 远离 中 心 , 区 间 的 上 限 和 下 限 为 


中 心 的 分 布 包含 真 值 的 可 能 性 之 和 为 1%， 那 么 深 灰 色 部 分 和 浅 灰 色 部 分 应 该 是 0.005。 


Exploratory Software for Confidence Intervals (ESCI) 是 由 Geoff Cumming 设计 开发 的 


一 系列 Excel 文件 ， 可 以 仅仅 依托 我 们 常用 的 Microsoft Excel 软件 完成 复杂 的 统计 计算 ， 


这 


其 中 包括 效应 量 Cohen’s d 及 其 置信 区 间 (Cumming, 2001)。 使 用 ESCI 可 以 更 加 直观 地 理解 


区 间 上 限 与 下 限 与 4 值 的 关系 。 在 ESCI F, 将 以 区 间 下 限 dL 为 中 心 的 分 布 往 左 移动 ，di 就 


会 变 小 ,该 分 布 右 侧 超 过 真 值 的 区 域 也 会 变 小 ; 这 意味 着 真 值 所 对 应 的 p 值 也 会 变 小 , Al 


BA 


能 够 拒绝 dL 选择 真 值 的 概率 就 会 变 小 。 同 样 的 ， 如 果 将 以 区 间 下 限 dL 为 中 心 的 分 布 往 右 移 
动 ， 那 么 di 值 就 会 变 大 ， 该 分 布 右 侧 超过 真 值 的 区 域 就 会 变 大 ， 那 么 能 够 拒绝 dL 选择 真 值 
的 概率 就 会 变 大 。 为 了 能 得 到 一 个 准确 的 95% 的 置信 区 间 ， 我 们 需要 移动 以 di 为 中 心 的 分 
布 使 得 它 右 侧 超过 真 值 的 区 域 为 0.025， 同时 移动 以 du 为 中 心 的 分 布 , 使 得 它 左 侧 超 过 真 值 


的 区 域 也 为 0.025。 这 样 得 到 的 dt 和 du 就 是 我 们 需要 的 置信 区 间 的 上 下 限 。 
因为 这 两 个 曲线 都 是 非 中 心 1 分 布 ， 所 以 我 们 可 以 改变 4 值 来 调整 曲线 向 左右 滑动 。 


这 


种 不 断 地 调整 以 达到 我 们 需要 的 区 间 的 方法 , 即 为 迭代 估计 。 简单 来 说 就 是 在 保持 自由 度 不 


变 的 情况 下 ， 通 过 代入 不 同 的 非 中 心 参数 A( 在 一 些 研究 中 也 会 写作 6) 进行 相应 的 计算 ， 


并 


进行 下 一 步 的 调整 。 在 计算 置信 区 间 时 ， 不 断 地 调整 A， 从 而 不 断 调整 非 中 心 ! 分 布 ， 使 得 


我 们 得 到 的 在 曲线 上 的 临界 值 正好 在 0.025 和 0.975 的 双 尾 范围 之 间 ， 这 样 我 们 就 得 到 了 
Cohen’sd 的 置信 和 区间。 那么， 我们 应 该 如 何 确定 分 别 以 置信 区 间 上 限 和 下 限 为 中 心 的 分 布 


的 非 中 心 参数 呢 ? 
对 于 单 样 本 的 研究 ， 非 中 心 参数 A 的 计算 公式 为 
Hi1i-Ho 
= 和 
结合 公式 (3.1)， 我 们 就 可 以 得 到 
A= dyVN (3 


ESCI 使 用 公式 (3.4) 将 Cohen’s d 和 非 中 心 参数 A 进行 转换 ， 而 非 中 心 参数 A 可 以 有 
计算 非 中 心 的 1 分 布 。 因 此 ， 我 们 可 以 得 到 Cohen’s d 的 置信 区 间 为 : 


.4) 


HK 
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相似 的 ， 对 于 双 样 本 的 研究 ， 非 中 心 参数 A 的 计算 公式 为 : 


A = Ka2 一 Ma 


关于 Cohen's d 置信 区 间 的 原理 ， 有 具体 
3.2 ”实例 与 软件 分 析 


ANS 
EE 


节 可 参考 Cumming (2012) 第 11 章 


(3.5) 


(3.6) 


(3.7) 


(3.8) 


的 内 容 。 


在 研究 实践 中 ， 研 究 者 不 需要 自己 进行 迭代 来 估计 Cohen’s d 的 置信 区 间 。 


目前 ，R 语 


A(R Core Team, 2018) 中 有 不 少 成 熟 的 工具 包 可 以 用 于 计算 Cohen’s d 的 置信 区 间 。 而 JASP 
是 基于 R 所 开发 的 用 户 界面 友好 的 软件 可 以 进行 传统 的 统计 分 析 和 贝 叶 斯 因子 分 析 
(Wagenmakers et al., 2015; 胡 传 鹏 等 , 2018)， 也 可 以 实现 Cohen’sd 的 置信 区 间 的 计算 。( 关 
F SPSS 中 计算 Cohen’sd 置 信 区 间 的 插件 , J: http://dl.dropbox.com/u/1857674/Clstuff/CLhtml; 


s 
| 


基于 Microsoft Excel 所 开发 的 ESCI 计算 Cohen’s d E fa K lA, BW: 


https://thenewstatistics.com/itns/esci. ) 


我 们 将 使 用 JASP 示例 数据 “Kitchen Rolls”( 有 具体 数据 ， 见 : https://osf.io/q9387/) 进行 说 


明 。Topolinski 和 Sparenberg(2012) 发 现 , 转动 纸 卷 的 方向 能 够 改变 个 体 在 人 格 量 


表 上 开放 性 


的 得 分 ，Wagenmakers 等 (201$) 对 此 实验 进行 重复 实验 ， 这 里 使 用 的 数据 即 为 Wagenmakers 
等 (2015) 的 重复 实验 数据 。 该 示例 数据 包含 两 组 被 试 在 人 格 量 表 中 关于 开放 性 的 得 分 ， 其 中 
一 组 被 试 在 填写 问卷 时 顺 时 针 旋 转 桌 面 上 的 纸 卷 ， 而 另 一 组 则 逆 时 针 旋 转 。 数 据 分 析 中 ， 


NEO PI-R 的 平均 得 分 作为 因 变 量 ， 被 试 的 分 组 《〈 顺 时 针 或 道 时针 ) 为 自 变量 ， 
本 上 检验 进行 数据 分 析 。 
3.2.1 使 用 JASP 计算 Cohen’s d 的 置信 区 间 

将 样 例 数据 使 用 JASP 打开 后 ， 选 择 T-Tests > Independent Samples T-Test, 


采用 独立 样 


得 到 如 下 界 


面 。 根 据 要 求 将 需要 统计 的 变量 导入 对 应 变量 框 中 (与 SPSS 类 似 )， 在 下 方 界 
进行 的 统计 操作 ， 其 中 在 Additional Statistics 下 可 以 勾 选 Effect Size 和 Confidence 
选项 ， 根 据 公式 (3.5)-(3.8) 计 算 结 果 即 为 效应 量 Cohen’s d 及 其 置信 区 间 。 


用 点 选 需 要 


e interval 的 
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图 5 JASP 独立 样本 1 检验 操作 ( 左 侧 ) 及 结果 界面 ( 右 侧 )》 

结果 显示 因 变 量 满足 正 态 分 布 和 方差 齐 性 假设 ,因此 选择 Studentttest 进行 分 析 。 结 
显示 两 组 的 NEO PI-R 的 平均 得 分 没有 显著 差异 C{(100) = 0.754, p = 0.453 ), Cohen’s d= 0.149， 
95% CIs [-0.240, 0.538]. 
3.2.2 ”使 用 RR 计算 Cohem’s d 的 置信 区 间 

R 语言 中 有 多 个 工具 包 可 以 完成 独立 样本 1 检验 ， 如 car 和 MBESS。 假 如 我 们 使 用 car 
工具 包 上 的 ttest 函数 ,得 到 两 组 被 试 在 NEO PIR 的 平均 得 分 没有 显著 差异 , 1(100)= 0.754， 
p= 0.453 (当然 ， 也 可 以 使 用 JASP 或 者 SPSS 得 到 1 值 与 p 值 )。 在 得 到 1 值 之 后 ， 则 可 通 
过 使 用 如 下 命令 来 计算 Cohen’s d 的 置信 区 间 ，R 代码 如 下 : 


library (“MBESS”) # 打开 MBESS 工具 包 
# 定 义 相 关 参 数 并 计算 Cohen's d 的 95$ 置 信 区 间 
MBESS:: ci.smd(ncp = 0.75361, n.1 = 48, n.2 = 54, conf.level = 0.95) 


其 中 ncp GEP GAZO 是 1 值 ，n.1 和 n.2 代表 两 组 的 样本 量 ，MBESS 采用 公式 (3.5)-(3.8) 
通过 运行 程序 可 以 获得 结果 。 


3.3 ”结果 报告 与 解释 

如 上 所 示 , 使 用 两 种 不 同 的 软件 对 于 顺 时 针 旋 转 组 的 被 试 与 逆 时 针 旋 转 组 的 被 试 的 人 格 
量 表 得 分 差异 进行 估计 , 并 且 得 到 了 95% 的 置信 区 间 。 输出 的 结果 都 表明 , 两 组 被 试 的 NEO 
PIER 的 平均 得 分 没有 显著 差异 ， 对 于 效应 量 及 其 95% 的 置信 区 间 的 估计 也 是 相同 的 一 一 效 
应 量 4 为 0.149， 其 95% 置 信 区 间 为 [-0.240, 0.538]。 基 于 这 些 结果 ， 我 们 可 以 得 到 的 结论 : 
目前 的 数据 无 法 拒绝 零 假 设 ， 即 无 法 推断 出 被 试 进行 顺 时 针 旋转 或 者 着 时 针 旋 转 对 于 NEO 
PIR 的 得 分 存在 显著 影响 的 。( 注 意 ， 这 里 p > 0.05 及 Cohen’s d 的 置信 区 间 包 含 0 均 无 法 
(3 SMRAAW A, 即 无 法 使 用 p 值 来 支持 两 组 没有 差异 的 结论 , 因为 p 值 的 计算 是 以 
零 假 设 为 真 作为 前 提 条 件 的 。 要 为 零 夭 终 为 矶 这 个 结论 提供 证 据 ， 需 要 借助 其 他 的 统计 手 
段 。) 


= 


4 方差 分 析 中 效应 量 及 其 置信 区 间 

心理 学 研究 中 另 一 个 最 为 常见 的 效应 量 指标 是 方差 分 析 Canalysis of variance, ANOVA) 
中 的 Eta-squared (n?) (Fritzetal,2012)， 其 最 早 由 Pearson (1905) 提 出 ， 可 以 理解 为 单个 或 
者 多 个 因素 《交互 作用 ) 引起 的 变异 在 总 变异 中 所 占 的 比例 (Cohen & Cohen, 2010). n Hit 
算 公式 如 下 : 


SS, 
- effect 
Pon (4.1) 
total 


非常 值得 注意 的 是 ，SPSS 输出 的 效应 量 指标 WP 在 心理 学 研究 中 应 用 广泛 , 但 是 意义 与 
人 ?不 完全 相同 并 且 容 易 引 起 误解 。 例 如 有 研究 指出 很 多 研究 者 很 容易 混淆 信和 mp?， 这 种 混 
淆 可 能 会 造成 一 些 比较 严重 的 后 果 ， 如 在 元 分 析 (meta-analysis〉 中 如 果 错 误 的 使 用 np tt 
伴 ， 会 使 得 元 分 析 结 果 出 现 严 重 的 偏差 Levine & Hullett 2002)。 此 外 误 用 宪 和 mn? 对 理论 的 
建构 也 十 分 不 利 (Pierce, Block, & Aguinis, 2004)。 因 此 报告 mn? 的 时 候 一 定 要 注 明 报告 的 是 哪 
个 指标 (对 论文 中 下 与 mp 不 明确 情况 下 ， 可 对 各 个 影响 因素 的 效应 量 相 加 ， 一 般 结果 等 于 
1 的 情况 下 是 下 ， 如 果 结 果 大 于 1， 则 是 mw)。 另 外 在 样本 量 比 较 小 的 时 候 ( 自 变量 和 样本 
的 比值 小 于 1:10)，o? 则 成 为 研究 者 更 为 推荐 报告 的 效应 量 指标 ( 卢 谢 峰 等 ,2011)。 当 然 与 o? 
类 似 的 效应 量 统计 指标 还 有 &?, FE IL(Maxwell & Delaney, 2004)。 下 面 结合 公式 4.1 主要 对 下 
置信 区 间 计 算 进 行 说 明 。 
41 7 ?置信 区 间 计 算 的 原理 

要 理解 让 的 置信 区 间 ， 同 样 需要 理解 与 其 相关 参数 有 关 的 非 中 心性 分 布 。 在 这 里 ， 伴 置 
信 区 间 的 建构 需要 方差 分 析 中 刁 值 的 分 布 以 及 方差 分 析 中 另 一 个 效应 量 指标 Cohen's fo 以 
最 简单 的 单 因 素 被 试 间 设 计 方 差分 析 为 例 ， 其 总 体 变异 可 以 被 分 解 成 为 组 间 变 异 和 组 内 变 
异 : 


SStotal = SShetween T SSerror 
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BU: 


SSG, 一 区 -2G- x)? YY, -5y 


j=1 i=1 J=1 i=1 


其 中 X 表示 观测 值 , j 表示 分 组 水 平 GEA kH), n 表示 组 内 被 试 数量 (每 组 内 均 有 n 个 被 
试 )。 此 时 ， 瓦 值 计算 公式 如 下 : 


SS Gi | 
Fahd) = Sap. 42) 


其 中 df =k—1,df) =nk—df,—1. SKIRTED EEA EE: 


k 元 y2 
n 2... SSbetween SSbetween = D(X; -X) (4 3) 
= = SS SO eS n a . 
SStotal SSbetween + SSerror 2j- 1i (Xij a x)? 


组 间 效 应 的 另 一 种 效应 量 指标 一 一 Cohen’*sf 则 可 以 通过 如 下 公式 计算 : 


E SSyetween _ n? 
iz SSerror J la- n2) (4.4) 


此 时 的 五 分 布 和 x? 分 布 存在 非常 紧密 的 关联 。 根 据 X2 分 布 的 定义 可 知 ，X2 分 布 是 从 标 
准 正 态 分 布 中 独立 抽取 出 样本 的 平方 和 的 分 布 。 也 就 是 说 ， 假 设 有 p 个 从 标准 正 态 分 布 


(N(O,1)) 中 抽取 出 来 的 随机 变量 集合 {Xi,i = L1. k WA: 


k k 
XR- wir = > a 
i=1 i=1 
这 是 一 个 自由 度 为 1 的 2 分布， 且 这 个 分布 是 中 心性 的 (注意 ， 这 里 的 中 心性 并 非 
指 的 是 该 分 布 是 中 心 对 称 ， 而 是 说 其 是 从 中 心 对 称 的 分 布 中 抽出 来 的 数据 的 平方 和 的 分 布 )。 
对 照 之 前 方差 分 析 中 值 的 计算 公式 ， 如 果 将 分 子 和 分 母 同 时 除 以 ow。s。( 处 理 引起 的 


between 


变异 ) Fila? (误差 引起 的 变异 ) (在 ANOVA 的 加 为 真 的 情况 下 ,假设 处 理 变异 同 误差 


error 


引 起 的 变异 相 同 Mo? eeween error’ 
Bi SAF) 的 分 子 和 分 母 分 别 对 应 一 个 Xx? 分 布 。 


， 所 以 在 公式 中 相互 抵消 了 )， 则 五 值 (F(dfi, df), 


(SSpetween/ df1)/5 between 


dfi,df2) = 
PE ee EIE ee 


在 ANOVA 中 ， 由 虚无 假设 为 组 间 均 数 相等 ， 实 验 误差 服从 正 态 分 布 NO, orror) TA, 
此 时 的 分 子 分 母 对 应 的 x? 分 布 是 中 心性 。 在 此 这 情况 下 ,五 分 布 也 呈 中 心性 。 
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当 虚 无 假设 为 假 的 时 候 , 组 间 均 数 不 相 等 , 分 子 对 应 的 ?分 布 呈 非 中 心性 , 分 母 作 为 实 
验 误 差 对 应 的 分 布 还 是 中 心性 的 x? 分 布 。 此 时 的 分 布 也 变 成 了 非 中 心性 的 ， 可 以 表示 为 
F(dfi, dh, 6)。 实 际 上 ， 中 心 分 布 是 非 中 心 分 布 的 特殊 情况 。 非 中 心 参数 ncp 决定 了 分 布 的 具 
体形 态 ， 例 如 中 心 F2, 52, ncp= 0) 分 布 〈 黑 色 ) 和 非 中 心 F, 52, ncp = DO CE), w 
下 图 所 示 。 


1.0 


Ri ES Ht SH 


02 04 06 08 


0 1 2 3 4 5 


图 6 Fù FAMER FA 

计算 效应 量 的 前 提 就 是 承认 Ho 为 假 〈 组 间 均 数 不 相等 )， 其 对 应 的 Fo} A ARSE oP 
布 。 如 果 计 算 下 的 置信 区 间 是 基于 非 中 心 分 布 ， 则 其 区 间 估 计 的 上 下 限 过 程 中 ， 存 在 与 
Cohen’s d 置信 区 间 估 计 过 程 中 同样 的 问题 ， 在 置信 区 间 的 上 限 与 下 限 位 置 的 下 分 布 的 非 中 
心 参数 不 相同 。 因 此 , 对 于 省 的 置信 区 间 的 估计 , 同样 需要 使 用 反 演 原理 (inversion confidence 
interval principle) (Steiger & Fouladi, 1996). 

我 们 通过 三 个 阶段 得 到 置信 区 间 : 统计 检验 -> 非 中 心 参数 -> 效应 量 统 计 。 首 先 我 们 
需要 建立 统计 检验 值 ( 方 差分 析 下 的 五 值 )》 和 非 中 心 参 数 以 及 效应 量 人 ?之 间 的 关系 。 由 公 
式 4.3 可 得 f? = ewen, Ae, TIAE 


SSerror 


F(df df.) = f° (dfa /df) (4.5) 


当 虚 无 假设 为 假 时 ，F(4dfi,qp) 的 非 中 心 参数 的 估计 值 5 ( 非 中 心 参数 的 符号 表述 方式 可 
能 会 有 不 同 ， 常 用 的 符号 包括 6、 入 的 计算 公式 如 下 (Smithson, 2001): 


6=f*(df +df +1) (4.6) 


AS 


EBAR 〈4.5)， 我 们 得 到 非 中 心 参数 的 估计 


8 = [F « (df, /df,)* (df, + df, + 1)] (4.7) 
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至 此 我 们 建立 起 了 统计 值 玉 和 非 中 心 参数 之 间 的 关系 。 再 综合 公式 (4.2), (4.3) 和 
(4.7)， 可 以 推断 出 人 PY 与 ?和 非 中 心 参数 6 的 关系 如 下 : 


n? =f7/(1+ f7) = 6/(6+ df, + df, +1) (4.8) 


至 此 ， 我 们 得 到 了 人 FY 与 值 、 Ff 分布 的 非 中 心 参数 之 间 的 关系 。 接 下 来 ， 我 们 就 可 以 
使 用 置信 区 间 反 演 原理 来 计算 个 的 置信 区 间 。 假 设 给 定 我 们 一 个 样本 F(5,194)， 我 们 需要 
构建 一 个 100(01-o)% Co=0.05) 的 双 侧 的 置信 区 间 (如 图 7 所 示 )。 


0.5 


&:=3.8648 


a ES} Hit Sa 


02 03 04 


6u=39.4777 
F=4.3111 


0.1 


图 7 构建 人 ?置信 区 间 的 示例 图 (Smithson, 2001) 
下 限 刀 对 应 F(5,194) 右 侧 的 y2 处 ， 上 限 6j 对 应 FG5,194) 左 侧 的 /2 处 。 在 得 到 与 上 下 
限 对 应 的 非 中 心 参数 5 后， 我 们 可 以 将 其 转换 为 六 的 置信 区 间 ， 转 换 公 式 如 下 : 


Ne = 8,/ (L+ dfi +df +1) (4.9) 


Ny? = ôy/ (dy + df, + df +1) (4.10) 


这 样 我 们 就 完成 了 对 下 的 置信 区 间 的 估计 。 

值得 注意 的 是 ， 对 ANOVA 效应 量 置信 区 间 的 计算 ， 通 常 报告 90% 的 置信 区 间 即 可 。 
原因 在 于 均值 之 间 的 差异 可 以 是 正 值 也 可 以 是 负 值 ， 但 是 由 于 下 或 尺 是 平方 值 ， 所 以 只 有 
正 值 。 计 算 95% 的 置信 区 间 时 ， 可 能 会 得 到 包含 0 的 置信 区 间 ， 但 此 时 p 值 可 能 小 于 .05， 
此 时 置信 区 间 的 结果 与 p 值 出 现 了 了 矛盾 ( 见 Karl Wuensch 的 解释 : 
http://core.ecu.edu/psyc/wuenschk/spss/spss-programs.htm)。 而 且 Steiger (2004) 指出 均值 比较 
的 95% 置 信 区 间 和 90% 置 信 区 间 得 到 的 检验 效力 是 一 样 的 ， 并 且 下 不 可 能 小 于 0， 所 以 与 0 
不 存在 显著 差异 的 置信 区 间 (通常 情况 下 不 包含 0) 的 下 限 至 少 要 从 0 开始 (Steiger, 2004). 
4.2 7 及 其 置信 区 间 在 R 上 的 实现 

同样 ， 我 们 将 采用 由 JASP 提供 的 样 例 数据 来 演示 如 何 使 用 R 计算 PH 90%CI。 该 数 
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据 名 为 Tooth Growth 和 Bugs， 分 别 用 来 展示 被 试 间 设计 和 被 试 内 设计 方差 分 析 中 企及 其 CI 
的 实现 (SPSS 上 如 何 实现 ， 见 : http://core.ecu.edu/psyc/wuenschk/spss/spss-programs.htm ) 。 
4.2.1 被 试 间 设计 m ?及 其 置信 区 间 在 R 上 的 实现 

Tooth Growth 数据 来 自 两 因素 完全 随机 设计 ,60 只 豚鼠 被 随机 分 配 到 6 种 处 理 条 件 下 ， 
用 以 研究 不 同类 型 的 营养 品 ( 维 生 素 c 即 VC 和 橙汁 07) 在 不 同 抗坏血酸 剂量 条 件 下 (0.5mg、 
Img 和 2mg) 对 豚鼠 牙齿 生长 的 影响 ， 因 变量 选取 的 是 豚鼠 牙齿 的 长 度 。 

首先 使 用 统计 软件 获得 计算 置信 区 间 所 需 的 统计 值 。 这 里 你 可 以 使 用 R 中 自 带 的 函数 
aov 或 者 一 些 带 统计 功能 的 工具 包 (如 ez. car 等 等 )， 这 里 需要 注意 的 是 用 R 进行 方差 分 析 
时 , 不 同 的 工具 包 或 者 函数 使 用 的 平方 和 类 型 会 有 所 不 同 , 例如 aov 函数 进行 计算 的 时 候 默 
认 使 用 的 是 Type I SS (sun of square), ezANOVA 默认 使 用 的 是 Type II SS CJ UA R 中 使 
FA type 对 平方 和 类 型 进行 调整 , 详 见 https://cran.r-project.org/web/packages/ez/ez.pdf), 而 SPSS 


在 进行 方差 分 析 计 算 的 时 候 默 认 的 是 Type II SS (可 以 在 SPSS 中 模型 选项 进行 调整 )。 当 


数据 不 同 组 间 的 被 试 量 相同 时 , 不 同类 型 平方 和 计算 结果 出 现 的 差异 不 大 , 但 是 当 数 据 不 平 


衡 的 时 1 


library(“MBESS”) # 


ci.pvaf(F.value=92, 


度 计 算 对 应 的 90gs 置 信 区 间 


医 ， 则 要 谨慎 考虑 平方 和 类 型 ， 因 为 不 同 的 平方 和 类 型 会 带 来 不 同 的 统计 结果 ， 感 兴 
趣 的 读者 可 以 参考 (Langsrud,2003)。 当 然 更 为 便捷 的 办 法 是 应 用 JASP 直接 进行 统计 分 析 并 
获得 相应 的 统计 值 。 例 如 对 于 以 上 数据 ， 可 得 F(2,54)=92， 随 后 在 R 中 下 载 并 打开 MBESS 
工具 包 ， 输 入 相关 的 统计 值 进行 置信 区 间 的 计算 ，R 中 的 命令 如 下 : 


打开 MBESS 工具 包 
df.1=2,df.2=54,N=60,conf.level=.90) # 输入 E 值 、 自 


4.2.2 ”被 试 内 设计 m ?及 其 置信 区 间 在 R 上 的 实现 

Bugs 数据 来 自 两 因素 混合 设计 ， 用 以 研究 不 同性 别 〈 男 、 女 ) 人 群 对 于 不 同类 型 〈 不 吓 
人 不 恶心 、 不 吓人 很 恶心 、 很 吓人 不 恶心 和 很 吓人 很 恶心 ) 虫子 图 片 的 敌意 指数 ， 并 采用 10 
点 评分 表明 想 要 杀 死 或 者 驱赶 虫子 的 程度 (Ryan, Wilde, & Crist, 2013)。 通 过 JASP， 我 们 可 以 
得 到 F(2.64, 224.48), (注意 被 试 内 设计 数据 在 违背 球形 假设 的 情况 下 使 用 校正 后 的 自由 度 )。 
然后 再 R 中 使 用 如 下 命令 得 到 置信 区 间 : 


# 打开 MBESS 工具 包 


library (“MBESS”) 


+ HHA FER A RE 


Lims<-conf.limits.ncf (F.value=20.14,conf.level=0.90,df.1=2.64,df.2 = 


224.48) 
# 计算 908 置 信 区 间 的 下 


限 


Lower. lim<-LimsSLower.Limit/ (Lims$SLower.Limit+df.1+df.2+1) 
# 计算 90% 置 信 区 间 的 上 限 


Upper.lim<-Lims$Upper.Limit/ (Lims$Upper.Limit+df.1+df.2+1) 


4.3 ”结果 报告 与 解释 

对 于 人 ?及 其 置信 区 间 的 解释 主要 参照 个 的 定义 ， 也 就 是 实验 效应 引起 的 变异 占 总 体 变 
异 的 比例 , 因此 下 的 大 小 说 明了 在 具体 的 实验 研究 中 对 于 自 变量 操作 的 有 效 性 。 也 就 是 说 全 
武大， 相关 变量 之 间 的 关系 越 紧密 ， 当 然 这 种 关系 的 属性 ， 即 相关 还 是 因果 关系 主要 由 实验 
设计 的 类 型 (如 准 实 验 设计 和 实验 设计 ) 决定 。 但 是 由 于 人 ?置信 区 间 不 可 能 小 于 0， 这 也 就 
决定 了 对 于 人 ?的 解释 不 可 能 像 前 面 提 到 的 Cohen’s d 的 置信 区 间 一 样 ， 把 包含 0 的 置信 区 间 
作为 我 们 拒绝 或 者 接受 零 假 设 的 依据 。 而 且 方 差分 析 的 应 用 作为 一 般 线性 模型 下 的 特例 , 往 
往 只 是 对 涉及 变量 间 关 系 检验 的 第 一 步 。 因 此 我 们 一 般 把 人 ?及 其 置信 区 间作 为 评价 实验 变 
量 操控 有 效 性 的 指标 , 接 下 来 具体 的 组 间 比 较 才 是 研究 者 关注 的 重点 (例如 主 效应 显著 后 的 
多 重 比 较 、 交 互 作 用 显著 后 的 简单 效应 分 析 )， 而 在 组 间 比 较 中 可 以 再 次 使 用 如 +t 检验 下 的 
Cohen’s d 作为 评价 组 间 差 异 可 靠 性 的 效应 量 指标 。 


近年 来 心理 学 中 的 可 重复 危机 已 经 对 心理 学 界 产生 了 深远 的 影响 , 而 统计 报告 标准 的 变 
化 ， 组 成 了 期 刊 论文 报告 标准 变化 中 非常 重要 的 部 分 ( 刘 宇 等 , 2018; Appelbaum et al., 2018; 
Levitt, Bamberg, Creswell, Frost, Josselson, & Sudrez-Orozco, 2018). Cohen’s d 与 由 作为 基于 
估计 统计 中 两 个 最 常用 的 效应 量 指标 ， 对 于 研究 者 来 说 具有 重要 意义 (Fritz et al., 2012). A 
文 解释 了 这 两 个 效应 量 置信 区 间 的 原理 , 并 采用 实例 演示 了 如 何在 R 与 JASP 中 实现 这 两 种 
置信 区 间 (所 有 演示 数据 与 代码 , 见 : https://osf.io/4ameb/), 可 能 对 研究 者 具有 一 定 的 帮助 。 
虽然 本 文 未 对 另 一 个 常见 的 效应 量 指标 一 一 相关 系数 的 置信 区 间 也 进行 说 明 及 演示 , 但 是 其 
计算 与 实现 在 JASP 与 R 中 均 相 对 成 熟 ， 读 者 可 以 参阅 相关 资料 。 更 多 关于 置信 区 间 的 原 
理 ， 可 见 (Smithson, 2003). 

值得 注意 的 是 ， 任 何 一 个 统计 方法 均 有 其 优 缺 点 (Rouder Morey, Verhagen, Province, & 
Wagenmakers,2016)。 对 于 心理 科学 而 言 ， 任 何 新 的 统计 方法 都 不 足以 解决 可 重复 危机 ( 胡 传 
觅 等 , 2016; 刘 佳 , ÆR, PRICE, APR, ER, 2018)。 对 于 研究 者 以 及 整个 领域 来 说 ， 
最 重要 的 是 充分 理解 各 个 统计 方法 的 前 提 及 其 不 足 ， 否 则 难以 真正 避免 假 阳 性 。 本 文 所 介绍 
的 内 容 ， 可 能 可 以 帮助 研究 者 达到 新 报告 标准 的 要 求 ， 在 结果 中 提供 更 丰富 的 信息 。 
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Abstract 


The recent replication crisis in psychology has motivated many researchers to reform the 
methods they used in research, reporting effect sizes (ES) and their confidence intervals (CIs) 
becomes a new standard in mainstream journals. However, a practical tutorial for calculating CIs is 
still lacking. In this primer, we introduced theoretical basis of CIs of the two most widely-used effect 
size, Cohen's d and 1’, in plain language. The CIs of both Cohen's d and n? are calculated under the 
condition that the alternative hypothesis (Hi1) is true, and both rely on the estimation of non- 
centrality parameters of non-central distributions by using iterative approximations. More 
specifically, non-central ¢-distribution for Cohen's d and non-central F-distribution for n?. Then, we 
illustrated how to calculate them in R and JASP with real data. This practical primer may help 
Chinese psychological researchers understand the CIs better and report CIs in their own research. 
Key words: Effect size; Confidence interval; Cohen’s d; Eta squared; R 


